{% include 'includes/_navbar.html' %}
PROCESO ALGORÍTMICO PARA RECUPERACIÓN HISTÓRICA
EFICIENTE EN GESTIÓN DOCUMENTAL
JESÚS MARTÍN SILVA FERNÁNDEZ
Maestro en Ciencias de la Computación
Para Optar el Título de Doctor en Ciencias de la Computación
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Sistemas inteligentes y tratamiento de imágenes
Línea de Investigación
Reconocimiento automático de patrones,
análisis de imágenes y generación de
características
Gestión documental, procesamiento electrónico
automático
Proceso de digitalización
Generación de texto
Identificación de palabras clave
Líneas SubLíneas
OCDE
1.00.00 Ciencias Naturales
1.02.00 Informática y Ciencias de la Información
1.02.01 Ciencias de la Computación
https://concytec-pe.github.io/Peru-CRIS/vocabularios/ocde_ford.html
Inteligencia artificial: reconocimiento
de patrones y el procesamiento del
lenguaje natural.
Tecnologías de la información
(TIC): Aplicación de la informática y la
tecnología para almacenamiento y
gestión de información.
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Se presenta una propuesta para el problema de reconocimiento de texto de
documentación textual histórica deteriorada, que representa información útil
para el nivel ejecutivo y como evidencia de la actividad continua y
resultados temporales institucionales.
Es un requerimiento informático cuya complejidad se resuelve con
algoritmos inteligentes que se exponen con un enfoque formal, y se evalúan
los resultados de los mismos con fines de aceptabilidad de resultados
Se implementa una infraestructura para que utilizando una base de datos
documental se realizan pruebas de eficiencia con indicadores de tiempo de
respuesta y calidad de resultados
Resúmen
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
La documentación histórica tiene diversas características que no permiten la recuperación con el
proceso regular para conseguir un estado aceptable de documento en forma y contenido, debido al
deterioro físico y de contenido de información, básicamente de nitidez, que disminuye
significativamente por el uso, ruido y antigüedad.
Considerando estas características, el presente trabajo se refiere a tres aspectos: para mejorar el
proceso de recuperación, para reconocimiento de caracteres deteriorados y optimizar el proceso de
gestión documental
El preproceso es para limpiar la imagen de escaneo de ruido existente, que puede eliminarse y
suavizar los caracteres digitalizados, el alisado es el relleno y adelgazamiento, el suavizado, incluye
la normalización
El post-procesamiento utiliza el agrupamiento para asociar los símbolos individuales que pertenecen
ala misma cadena, formando palabras y números considerando normas de sintaxis y gramática
Determinar palabras claves de búsqueda, luego de la captura de datos para lo que se utilizan
tecnologías para grandes cantidades, restringidas al juego de caracteres del lenguaje
Capitulo 1: Identificación de Problema
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Capitulo 1: Objetivos
Implementar algoritmos, para mejorar el reconocimiento de texto de
documentación histórica deteriorada, previa preparación de los mismos
con el fin de recuperar tres componentes:
Documento histórico optimizado
Reconocimiento de texto mejorado con algoritmos de preparación y
de reconocimiento y corrección de palabras..
Recuperación documental optimizando principalmente búsqueda y
valor de contenido.
BASE DE CONOCIMIENTO
Adquisición
de Imágenes
Preprocesado
Segmentación Descripción
Reconocimiento
e interpretación
Postproceso
Consulta
Palabras clave
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Los caracteres incompletos debido a deterioro físico o borroso por antiguedad, están asociados con
inicialización y mala convergencia hacia límites cóncavos de caracteres, se desarrolla una nueva
fuerza externa para contornos activos, que resuelve en gran medida ambos problemas, ésta fuerza
externa, se llama flujo vectorial gradiente (GVF), se calcula como una difusión del gradiente con
vectores de un mapa de borde binario o de nivel de grises derivado de la imagen:
Fint +
= 0
Se define el campo de flujo vectorial de gradiente (GVF) como el campo vectorial v(x, y) =(u(x, y),
v(x, y)) que minimiza la energía functional:
ε=  
Capitulo 2: Base Teórica
Preprocesamiento: Campo de flujo vectorial gradiente
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Corrector Ortográfico
Encuentra palabras incorrectas, considerando diferentes tipos de
palabras incorrectas, un tipo de error es una falta de ortografía, las
fases de la revisión ortográfica son reconocer errores, determinar
un conjunto de palabras/correcciones previstas y, clasificar conjunto
de palabras posibles para devolver la palabra más probable que
coincida con la original
las posibles correcciones candidatas, que maximice la probabilidad de que
c sea la corrección deseada, dada la palabra original w:
argmaxcε candidate P(c) P(w/c)
La medida básica la similitud entre palabras es la distancia de Levenshtein
Una propuesta es modificar el algoritmo de Levenshtein, con asignación de
operaciones de edición y costos basados en la frecuencia de letras en las
palabras
Capitulo 2: Base Teórica
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Extracción de palabras clave:
La ponderación TF·IDF (Term frequency, Inverse document frequency) mide importancia de un término en
documentos para extracción de palabras clave, frases clave, generación de resúmenes automáticos y
clasificación de documentos.
TF (Frecuencia de términos) número de ocurrencias de una palabra en documento, relevancia de la palabra t en
documento d:
TF =

En donde 𝑡𝑖𝑗 es el mero de ocurrencias del término i en un documento j y 𝑡𝑛𝑗 es el mero de ocurrencias de
todos términos contenidos en el documento j
IDF (Frecuencia inversa de documentos) se define como el número total de documentos que se están analizando,
normalizado por el número de veces que aparece el término en el resto de los documentos. Esta medida indica
que tan representativa es una palabra en el documento:
IDF=log

Donde 𝐷es el número total de documentos analizados, y {𝑑𝑗 𝑡𝑖 𝑑𝑗 }es el número de documentos donde el
término 𝑡𝑖 aparece tal que 𝑡𝑖𝑗 0. Entonces TF·IDF:
Capitulo 2: Base Teórica
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Capítulo 2: Base Teórica
Reconocimiento de caracteres
El reconocedor Tesseract sistema OCR utiliza una comparación de dos etapas entre el carácter prototipo con formas y
caracteres de entrada, integra la segmentación de la imagen de entrada con caracteres reconocidos, utilizando backtrack.
La red CNN se utiliza en el reconocimiento de patrones con información visual de objetos estáticos y en movimiento, su
contexto son elementos de un tensor de entrada y el valor, la posición y las vecindades de cada uno.
En una convolución se cumple la relación entre dimensiones de entrada y del núcleo:
𝑑𝑖𝐾𝑑𝑖𝑋,𝑖[0,1, ,𝑁1]
Se calcula la convolución 𝑋𝐾para obtener:
𝑌=𝑋𝐾
𝑑0𝑘1𝑑1𝑘1𝑑𝑁𝑘1
𝑦𝑖0,𝑖1,,𝑖𝑁1= 𝑘𝑗0,𝑗1,,𝑗𝑁1𝑥𝑖0𝑝0+𝑗0,𝑖1𝑝1+𝑗1,,𝑖𝑁1𝑝𝑁1+𝑗𝑁1
𝑗0=0 𝑗1=0 𝑗𝑁=0
El tensor resultante de la convolución tiene el mismo orden que 𝑋y𝐾, sus dimensiones se determinan así:
𝑑𝑖𝑋𝐾=𝐸𝑛𝑡 ( (𝑑𝑖𝑋𝑑𝑖𝐾)/𝑝𝑖+1)
Donde 𝐸𝑛𝑡(·) es una función que extrae la parte entera y se define como:
𝐸𝑛𝑡(𝑥) = 𝑚𝑎𝑥{𝑦|𝑦𝑥}
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
ISO 23081 es un marco para creación, gestión y uso de metadatos para la gestión de documentos, y
explica los principios, ésta Norma es una guía para entender, implantar y utilizar metadatos en el
marco de la Norma ISO 15489 de Información y documentación de Gestión documental. La ISO
30300 tiene las ventajas de integrar el Sistema de Gestión Documental con el resto de Sistemas de
Gestión ISO:
Capítulo 2: Base Teórica
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Para el reconocimiento de caracteres las variables corresponden a técnicas de PCA (Análisis de
componentes principales) y RFE (Eliminación Recursiva de Características) que permiten crear
modelos eficientes.
El proceso de ICR se inicia con la digitalización de imágenes de escritura deteriorada que tienen los
caracteres. Este conjunto está compuesto por documentos y campos.
Las entradas son píxeles de la imagen que representa el caracter, la imagen está en escala de grises
por lo que cada pixel está entre 0 y 255
784 valores en los píxeles (resultado de los 28x28 píxeles), toman valores enteros de 0 hasta 255,
siendo el valor 255 la intensidad más oscura (negro) y el 0 la intensidad más clara (blanco).
En la evaluación se mide el grado de precisión de cada modelo, se utiliza la exactitud de cada
método
Capítulo 3: Base Metodológica
Fase 1: Reducción
de imagen
Fase 2:
Tratamiento
de
imagen
Fase 3: Selección
de Variables
Fase 4:
Construcción de
modelo
Fase 5:
Resultados
No hacer nada
Ancho pixel
No extraer
características
KNN
0.9495
Imagen 14x14
Quitar filas blanco
PCA
Random Forest
0.9315
Imagen 28x28
Binarizar
RFE
Neuronal
Network
0.9625
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Preprocesamiento
Para la restauración de caracteres deteriorados de documentos históricos se implementa el algoritmo
Gradient Vector Flow (GVF) y Balloon con escalones triangulares para mejorar el algoritmo snake con el
fin de determinar convergencia del área de concavidad profunda y restauración de caracteres rotos:
Esnake = Einternal + Eexternal
La energía interna se determina:
Einterna =


󰇛 󰆒 󰇛󰇜
Donde X(s) es la primera derivada de X(s) representa la energía elástica que impone la curva a
encogerse, X"(s) es la segunda derivada de X(s) que representa la energía de flexión que hace
que la curva tienda a ser como una placa delgada. α y β son parámetros de ponderación.
Eexterna =
 
El código de implementación en Python.
Capítulo 4: Descripción de Unidad de
Análisis
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Postprocesamiento
La precisión de ICR se puede mejorar si la salida es restringida por un léxico, una lista de palabras
que ocurren en un documento, es decir, corregir las palabras en el idioma español, o un léxico más
técnico para un campo especifico.
El algoritmo de Peter Norvig se implementa con:
Importación y descarga de Corpus CESS-ESP
Preparación de corpus
Formateo de texto
Aplicación de operaciones de Algoritmo: cálculo de distancia, elimiación, transposición,
reemplazos e inserciones
Capítulo 4: Descripción de Unidad de
Análisis
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Extracción de Palabras Clave
la documentación histórica que no está etiquetada con palabras clave para búsqueda posterior, se
pueden determinar con el algoritmo TF-IDF, que tiene las actividades:
Identificación de palabras (tokenización),
Cálculo de frecuencia de término (TF),
Cálculo de frecuencia de documento inverso,
Cálculo de TF-IDF,
Construcción de árbol AVL
Extracción de palabras clave
Capítulo 4: Descripción de Unidad de
Análisis
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Proceso de Digitalización
El sistema de gestión documental orientado al registro de documentación física, para un mejor
control y para un registro histórico de los documentos:
Capítulo 4: Descripción de Unidad de
Análisis
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Resultados esperados
La expectativa del proyecto es el reconocimiento de un texto deteriorado para su intepretación mas
aceptable:
Se utliza base de datos documental histórica de la Asociación de Latinoamericana de Archivos
(ALA)
Se definen tres grupos de evaluación:
Correctamente reconocidas
Con pocos fallos en el reconocimiento
Con número de errores que generan no clasificación
Indices/tasas de rendimiento: reconocimiento, de rechazo y error
Capítulo 5: Análisis de Resultados
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Reconocimiento de Imagen y claves
En la implementación de la Plataforma para resultados y pruebas de obtiene:
La evaluación cuantitativa utiliza la estrategia de palabras correctas y cantidad de las
mismas y se expone en diagrama de barras con etiquetas de algoritmo correspondiente.
Capítulo 5: Análisis de Resultados
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
Pre-proceso, mejora gráfica de caracteres detariorados, con este algoritmo se logra una
mejora significative, utilizando la Plataforma de pruebas se puede optimizar con
parámetros de configuración del algoritmo e imagen de entrada.
Post-proceso, análisis semántico, con este algoritmo y con un diccionario del lenguaje
español se identifica y completa la palabra, es necesario mejorar la identificación de
nombres propios.
El indexamiento se realiza con metadatos según tipo de documento, se incluye fechas,
palabras propuestas por el autor y originario y destinatario, sin embargo, se podría
mejorar con palabras de origen semántico.
La plataforma de gestión documental incluye captura (digitalización) proceso de calidad,
archivamiento, indexación y búsqueda, es necesario integrar con documentación actual
que originalmente es digital.
Capítulo 6: Propuesta de Mejora
CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
CAPÍTULO I:
Planteamiento del
problema
CAPÍTULO II:
Base teórica
CAPÍTULO III:
Base Metodológica
CAPÍTULO IV:
Descripción de
Unidad Análisis
CAPÍTULO V:
Análisis e
Interpretación de
resultados
CAPÍTULO VI:
Propuesta de Mejora
CONCLUSIONES
El uso de los algoritmos de mejoramiento de información gráfica de para caracteres
deteriorados, permiten resultados eficientes que se mejora con parámetros de
configuración.
La corrección de palabras utilizando corpus/diccionarios es eficiente en la medida de
realizar evaluación de contexto semántico.
Los métodos para corregir los caracteres deteriorados afectan la tarea de clasificación
luego de detección de palabra.
La determinación de palabras clave de búsqueda resultan útiles en la medida que sean
representativas del contenido y por tanto de los algoritmos precedents.
El proceso de gestión documental es necesario prinicpalmente para reducer uso de
recurso temporal, financiero, espacio y Calidad de atención.
Conclusiones